Теперь давайте обсудим эти данные. Это климатические данные, взятые из Индонезии
за 2010-2020 года. Всего список состоит из таких столбов, как:
Сокращения
date : дата взятие данных
Tn : Минимальная температура (В Цельсиях)
Tx : Максимальная температура (В Цельсиях)
Tavg : Средняя температура
RH_avg : Средняя влажность
RR : Выпадение осадков (в мм)
ss : Продолжительность ясной погоды (в часах)
ff_x : Максимальная скорость воздушного потока (в м/с)
ddd_x : Направление ветра при максимальной температура (в градусах)
ff_avg : Средняя скорость воздушного потока (м/с)
ddd_car : Среднее направление ветра (в градусах)
station_id : id записывающей станции
Ради упрощения нашей задачи, опустим столбец с id станциями, скрестим пальцы, что
id будет иметь низкую корреляцию с соответствующими данными
589260 27-12-2020 25.2 31.2 29.2 74.0 0.0 1.4 4.0 280.0 2.0
589261 28-12-2020 25.3 31.6 28.1 78.0 NaN 3.0 12.0 260.0 2.0
589262 29-12-2020 24.6 32.3 28.4 81.0 NaN 6.5 5.0 260.0 2.0
589263 30-12-2020 25.2 32.6 28.4 80.0 0.0 2.4 7.0 260.0 2.0
589264 31-12-2020 24.3 32.0 26.7 86.0 26.6 5.8 7.0 350.0 2.0
ddd_car station_id
0 E 96001
1 E 96001
2 E 96001
3 SW 96001
4 NaN 96001
... ... ...
589260 C 97980
589261 C 97980
589262 SW 97980
589263 C 97980
589264 C 97980
[589265 rows x 12 columns]
plt.figure(figsize=(12,4))
sns.heatmap(df.isnull(),cbar=False,cmap='viridis',yticklabels=False)